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摘 要 : 非 线性 激活 函数 在 卷 积 神经 网 络 中 扮演 关键 角色 。 针 对 修正 线性 单元 (ReLU) 完全 丢弃 网 络 中 包含 有 用 信息 

的 负 激 活 值 问 题 ， 基 于 参数 化 修正 线性 单元 (PReLU) 和 指数 线性 单元 (ELU) 的 研究 ， 提 出 一 种 新 颖 的 参数 化 激活 

semi (PoLU) 。PoLU 对 输入 的 负 激 活 部 分 实施 有 符号 的 震 非 线性 变化 ， 需 函数 的 参数 是 可 以 在 CNNs 训 
过 程 中 自 适应 学 习 的 ; 同时 像 ReLU 那样 保持 正 激活 部 分 不 变 。PoLU 可 以 高 效 地 实现 并 且 灵 活 地 运用 到 不 同 的 卷 

es. 在 广泛 使 用 的 CIFAR-10/100 数据 库 上 的 实验 结果 表明 ，PoLU RHF ReLU fe È Hat WA Ms H 
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Improved activation function based on power linear unit 
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(Faculty of Electronic Information & Electrical Engineering, Dalian University of Technology, Dalian Liaoning 116024, 
China) 


Abstract: The non-linear activation functions play an indispensable role in Convolutional Neural Networks (CNNs) . Aiming 


at the problem that ReLU completely discards negative activations which often contain much information. Based on the 


research of Parametric Rectified Linear Unit (PReLU) and Exponential Linear Unit (ELU) , this paper proposes a novel 


parametric activation function called Power Linear Unit (PoLU) . The proposed PoLU performs signed power non-linear 
transformation on negative activations. The parameters of power function can be learned adaptively during the training process 
of CNNs. Meanwhile, PoLU remain the positive activations unchanged. PoLU can be efficiently implemented and be flexibly 
adopted to various CNNs. The experimental results on widely-used CIFAR-10/100 benchmarks demonstrate PoLU are much 
better than ReLU and outperforms its counterparts. 
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尽管 ReLU 可 以 为 深度 CNNs 带 来 许多 良好 的 性 质 ， 但 是 
ReLU 依然 存在 一 些 缺 点 。 其 中 一 个 缺点 是 ReLU 会 忽略 负 激 

近年 来 , 深度 卷 积 神经 网 络 (convolutional neural networks, 活 ， 这 些 负 激活 通常 会 包含 许多 对 表达 目标 有 用 的 信息 ， 尤 其 
CNNs) 备 受 关注 并 且 在 许多 计算 机 视觉 任务 中 获得 了 引 人 注 目 对 于 深度 CNNs 网 络 的 浅 层 而 言 丫 。 为 了 克服 这 个 限制 ， 许 多 
的 性 能 719。 激活 函数 是 CNNs 中 的 基础 单元 , 最 近 的 研究 表 改进 ReLU 的 方法 被 提出 来 。 表 1 对 已 有 的 方法 做 了 总 结 。 


1 ”激活 函数 


HY 


明 ， 将 修正 线性 单元 Crectied linear unit, RELU) 作为 激活 函数 泄漏 的 修正 线性 单元 (leaky ReLU, LReLU) P3} ReLU 做 
是 深度 CNNs 成 功 的 关键 B15109。ReLU 首次 提出 是 用 于 限制 了 修改 ，LReLU 对 负 激 活 建 模 成 一 个 线性 函数 ， 定 义 是 
玻 尔 兹 曼 机 外， 然后 成 功 地 用 于 神经 网 络 山 。ReLU 的 定义 是 f (x) = max {0, x} +amin{0,x} 


f(x)=max{0,x} 。 相 比 于 传统 的 Sigmoid 函数 ，ReLU 有 两 大 HP: 4 =0.01。LReLU 通过 将 负 激活 乘 以 一 个 数值 小 的 标量 ， 
RAL, H, ReLU 可 以 缓解 梯度 消失 问题 加， 同时 可 以 加 速 ”如 0.01, 使 得 负 激活 可 以 在 整个 深度 CNNs 中 传播 ,由 于 LReLU 
收敛 ,并 且 可 以 避免 网 络 收 全 到 一 个 局 部 最 优 解 中 ,另外 ,ReLU ”对 于 负 激 活 有 非 零 的 导数 ， 所 以 具有 负 激 活 值 的 参数 也 可 以 在 
更 趋向 于 得 到 稀 玻 的 编码 ， 这 种 稀 玻 的 编码 通常 会 带 来 更 好 的 端 到 端的 学 习 中 被 更 新 。 实 验 结果 表明 LReLU 相 比 ReLU 有 更 
分 类 器 性 能 @ 。 好 的 分 类 准确 率 。 然 而 LReLU 在 整个 网 络 中 被 人 为 地 设置 成 
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相同 的 参数 ， 这 种 是 一 种 不 合理 的 设置 ， 因 为 负 激 活 在 深度 
CNNs 的 不 同 层 中 有 不 同 的 作用 。 为 解决 这 个 问题 ，He 等 人 I 
提出 一 种 参数 化 的 修正 线性 单元 (parametric ReLU, PReLU) 。 
这 种 激活 函数 在 负 激活 部 分 引入 一 个 带 参数 的 线性 变化 ， 并 且 
其 参数 可 以 与 原始 深度 网 络 参数 同时 通过 反 向 传播 算法 更 新 。 
PReLU 定义 为 


f(x) 
其 中 : a 是 一 个 可 以 学 习 的 参数 。He 等 人 已 经 证 实 自动 学 习 参 
Ba 要 优 于 手工 微调 参数 ， 如 LReLU。 
不 同 于 LReLU 和 PReLU， 另 外 一 种 最 近 提出 来 的 激活 函 
数 是 指数 线性 单元 (exponential linear unit, ELU) 内， 它 在 负 激 
活 值 中 的 表现 为 一 种 非 线 性 变换 : 
Fs) = max 0.3} + min {0,8 exp() -1).0) 
其 中 :8 >0 。ELU 中 的 参数 8 通过 手工 来 设 定 ，i 
1. 


= max {0, x} + amin (0, x) 


N 


通常 设置 为 


在 ELU 负 激活 处 定义 的 非 线性 变换 可 以 减 小 偏 置 变换 , 这 
使 得 标准 梯度 接近 自然 梯度 ， 达 到 加 速 训 练 的 目的 。 实 验 结果 
表明 ELU 在 多 种 视觉 任务 上 都 优 于 其 他 激活 函数 。 

ELU 表明 在 负 激 活 处 做 非 线性 变换 会 优 于 线性 变换 。 然 而 
与 LReLU 相似 ，ELU 在 深度 CNNs 所 有 层 中 ， 对 负 激 活 使 用 


骆 训 浩 ， 等 : 


独 享 型 Cchannel-wise case) 。 
2.1 
道 独 享 型 PoLU 定义 如 下 : 


fx if x,>0 
CORN f x <0 (1) 
其 中 :x 表示 非 线 性 激活 函数 f (.) 在 第 ;个 通道 的 输入 ; a 是 


一 个 可 学 习 的 参数 ， 可 以 ) 
里 限制 学 习 参数 a > 0 。 


来 控制 负 激 活 部 分 的 非 线 性 ， 在 这 


oer RELU 
== -LReLU 


f(x) 


图 1 修正 线性 单元 (ReLU), 泄 漏 修正 线性 单元 (LReLU，a = 0.01), 指 
数 线性 单元 (ELU，a =1.0 ), 暴 线性 单元 (PoLU, a =0.5 Fil a =0.2 ) 
下 标 i 表示 第 jw 个 通道 ， 因 此 对 于 不 同 的 通道 可 以 学 习 到 


相同 的 非 线 性 变换 ， 这 在 实际 场景 中 是 不 恰当 的 使 用 方式 。 
于 以 上 的 讨论 并 受到 PReLU 和 ELU 的 启发 ， 本 文 提出 一 种 新 
颖 的 参数 化 的 激活 函数 一 一 窜 线 性 单元 (power linear unit, 
PoLU) 。 如 表 1 和 图 1 Pra, 不 同 于 现 有 激活 函数 ， 通 过 引入 
一 个 可 学 习 的 参数 ， 本 文 提出 的 PoLU 激活 函数 可 以 在 不 同 的 


i 


不 同 的 参数 a ， 各 个 通道 都 有 自己 的 非 线 性 表现 。 当 a, =0.5 
时 ，PoLU 表现 为 平方 根 。a 越 小 ， 所 得 到 的 负 激 活 值 越 小 ， 负 
激活 部 分 越 靠近 x 轴 ; 反之 ， 负 激活 部 分 越 远 离 x 轴 。PoLU iÑ 
过 这 个 特性 来 控制 负 激 活 部 分 的 非 线 性 表现 。 图 1 显示 了 
a=0.5 和 4 =0.2 时 PoLU 和 其 他 激活 函数 的 比较 。 利 用 可 学 习 


深度 CNNs 层 呈 现 出 不 同 的 形式 。 另 外 ，PoLU 可 以 有 效 地 实 
现 并 被 灵活 地 使 用 到 现 有 的 深度 CNNs 网 络 中 。 本 文 实验 在 广 
泛 使 用 的 数据 集 上 进行 : CIFAR-10 和 CIFAR-100。 实 验 结果 表 
HH PoLU 在 深度 卷 积 神经 网 络 架 构 Network in Network!!! E #8 
要 优 于 其 他 相应 的 激活 函数 。 

表 1 现 有 激活 函数 的 对 比 


方法 ft>} LY x>0,x<0} DOr>0,x<0) 


ReLUt! {x,0} {1,0} 
LReLU"! {x,0.01x} {1,0.01} 
PReLU"! {x,ax} {la} {0, x} 
ELU“! {x,B(exp(x)-1)}  {1, Bexp(x)} 
PoLU(AS 
{x,—|x{"} {L.-alx+e|""} {o,a In] + el} 
X) 


ims 
[ 


别 表示 前 向 传播 .关于 输入 x 的 反 向 传 


:rt LO) YD, 
E: f(x). a 和 分 


播 和 关于 参数 4 的 反 向 传播 ,本 文 的 PoLU 有 一 个 额外 的 正则 化 系数 


2 只 线性 单元 


本 章 详细 说 明 本 文 提出 的 究 线 性 单元 (PoLU〉。 两 种 类 型 
的 PoLU 被 提出 : 通道 共享 型 (channel-shared case) 和 通道 


参数 a， 深度 CNNs 可 以 在 网 络 训练 阶段 控制 它 的 非 线性 表现 。 
根据 式 (1) 中 PoLU 的 定义 , 越 小 的 a 会 带 来 更 多 非 线 性 表现 。 


2.2 REH 
PoLU 可 以 使 用 反 向 传播 算法 训练 参数 。 根 据 链 式 法 则 ， 
REM p ATSH a 的 导数 是 : 
CE ~ CE A(x) 
aa, AFG) oa 5 
sep, OF 是 从 网 络 深层 传播 过 来 的 梯度 。 
of (%) 
Sim, ZO 是 激活 函数 fO 关于 a 的 导数 
Ff 0 if x>0 , 
Oa |x|" In|x, + e| if x,<0 a 
JOH, e 是 一 个 足够 小 的 正 实数 ， 本 文中 设 为 le_8， 求 和 项 
D 表示 对 输出 的 特征 映射 一 个 通道 的 全 部 位 置 元 素 求 和 。 
Bih MRAM p ATAA x 的 导数 如 下 : 
OF OE f(x, 
E_E a(x) P 


Ox, f(x) Ox, 


R (5) 中 ， OD AE SO 关于 的 导数 
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of (x) 1 if x,>0 
IL 一 5 
Ox, ~a,|x,+é|"" if x, <0 ©) 
参数 的 更 新 规则 如 下 : 
A ET a ee 
ôa, (6) 
a, <a, + Aa, 
[eae ee eee E 
Ox; (7) 
x, <x, + Ax, 


式 (6) (7) 中 : /是 动量 系数 ，c 是 学 习 率 ; w 是 权重 
衰减 系数 。 
2.3 ”通道 共享 型 
通道 独 享 类 型 PoLU 某 一 层 的 所 有 通道 参数 a 都 不 相同 ， 
其 额外 参数 数量 等 于 相应 网 络 层 的 通道 数量 。 相 反 ， 通 道 共享 
P 个 网 络 层 的 所 有 通道 共享 ， 每 一 个 PoLU 
单元 只 引入 一 个 额外 参数 。 通 道 共 享 型 PoLU 的 反 向 传播 如 下 所 


上 


OE | OE Of (x) 

aa Le) ba ®) 
a(x)_} °°? cca (63 
Oa [x| In|, + el if x, <0 


HO) Pe A 表示 深度 CNNs 某 一 层 中 所 有 通道 的 梯度 
和 。 这 种 通道 共享 型 PoLU 每 一 层 只 引入 一 个 额外 的 参数 <， 额 
外 的 内 存 消耗 和 计算 代价 可 以 忽略 不 计 。 相 比 通 道 独 享 型 


Wilk, F: WHER RAED LÉRE 
3.2 在 NIN 中 的 实验 结果 

本 文 使 用 的 NIN 网 络 结构 与 文献 [10] 一 致 ， 由 三 个 级 联 的 
mlpconv 层 组 成 ， 每 一 个 mipconv 层 后 面 都 接着 一 个 空间 池 化 
层 用 作 下 采样 。 每 个 mlpconv 层 包含 一 个 卷 积 层 和 两 个 级 联 跨 
通道 参数 池 化 (cascaded cross channel parametric pooling, cccp) 
屋 组 成 。 其 中 cccp 层 等 价 于 卷 积 核 是 ]1x1 的 卷 积 层 。 最 后 一 个 
mlpconv 层 只 包含 一 个 卷 积 层 和 一 个 cccp 层 。 除 了 最 后 一 个 
mlpconv 层 外 ， 其 他 层 都 使 用 了 Dropout! HOR. NIN 的 最 后 
一 层 是 一 个 全 局 平均 值 池 化 层 ， 一 个 k 通道 的 全 连接 层 和 一 个 
softmax 层 。 
带 有 PoLU 的 网 络 的 训练 流程 与 典型 的 AlexNet 外 训练 流程 
相似 。 网 络 使 用 随机 梯度 下 降 算法 训练 ， 批 处 理 大 小 是 128， 
动量 系数 是 0.9， 权 重 衰减 系数 是 0.000 5。 和 初始 化 的 学 习 率 是 
0.04， 训 练 80 个 epoch 后 当 验 证 错误 率 趋 于 稳定 时 ， 学 习 率 降 
低 10 倍 。 
3.2.1 手工 设置 参数 4 实验 分 析 

PoLU 激活 函数 中 有 一 个 关键 参数 a , PoLU 通过 这 个 参数 
来 控制 负 激 活 部 分 的 非 线 性 表现 。 本 节 实 验 将 验证 参数 a 对 
PoLU 的 性 能 的 影响 ， 实 验 所 用 的 PoLU 类 型 是 通道 共享 型 。 
这 样 PoLU 的 每 一 层 都 共享 同一 个 参数 ， 便 于 排除 其 他 因素 的 
干扰 。 实 验 所 用 的 数据 库 是 C10， 其 baseline 的 测试 误差 是 
10.41%00。 在 对 比 实验 中 , 本 文 给 NIN 中 每 个 PoLU 层 的 参数 
a 都 手工 设置 为 相同 的 数值 ， 总 共 进 行 5 组 对 比 实验 ， 实 验 评 
价 指标 是 网 络 Top-1 测试 误差 (%) 。 表 2 是 对 比 实 验 结果 。 


PoLU， 通 道 共享 型 PoLU 引入 的 参数 更 少 , 计算 效率 更 高 。 但 是 
正如 实验 所 示 ， 通 道 独 享 型 PoLU 有 更 好 的 性 能 。 


3 ”实验 结果 及 分 析 


本 章 详 述 实验 部 分 。 本 文 在 典型 的 深度 CNNs 网 络 架 构 
network in network (NIN) 上 进行 实验 。 本 文 与 四 种 不 同 的 激 
活 函 数 进行 比较 ， 这 四 种 激活 分 别 是 ReLU"!, LReLU?!, 
PReLUB 和 ELU 负 。 比 较 实 验 在 CIFAR-10、CIFAR-100 数据 库 


进行 。 
3.1 实验 数据 库 


CIFAR-10 (C10) 数据 库 由 10 个 类 别 的 彩色 自然 场景 图 像 
组 成 ， 包 含 50 000 幅 训练 图 像 和 10 000 幅 测试 图 像 ， 每 幅 图 
像 是 大 小 为 32x32 的 RGB 图 像 。 本 文 使 用 文献 [3] 所 示 的 图 像 


预 处 理 方式 , 即 颜色 归 一 化 和 ZCA 白化 。 训 练 阶段 的 数据 增 广 
的 方式 与 文献 [10,13,11] 一致 ， 即 在 原始 图 像 的 每 一 侧 都 填充 4 
MER, EM 40x40 大 小 的 填充 图 像 ， 并 在 填充 图 像 中 随机 载 
剪 出 32x32 大 小 的 图 像 , 以 0.5 的 概率 随机 水 平 翻转 裁剪 图 像 。 
在 测试 阶段 只 使 用 颜色 归 一 化 的 图 像 。 与 文献 [11] 一 致 ， 采 用 
这 种 数据 增 广 方式 的 数据 库 叫 做 C10+。CIFAR-100 (C100) 数 
据 库 与 C10 相同 , 区 别 是 C100 包含 100 个 类 别 的 图 像 。C100+ 
的 数据 增 广 方式 与 C10+ 相 同 。 


其 表明 当 手 工 设 置 参数 a 来 控制 网 络 PoLU 层 的 非 线性 表现 
时 ， 参 数值 过 大 或 者 过 小 都 会 出 现 性 能 的 损失 。 并 且 在 对 比 实 
验 中 ， 参 数 a 被 设置 成 所 有 PoLU 层 数值 相同 ， 这 意味 着 所 有 
PoLU 层 的 非 线 性 表现 相同 。 这 种 设置 是 不 合理 的 ， 因 CNN 的 
每 一 个 卷 积 层 都 有 不 同 的 非 线 性 ， 其 对 应 的 POLU 层 参数 也 都 
各 不 相同 。 如 果 手 工地 去 设置 每 一 个 PoLU 层 的 参数 a， 这 将 
是 很 大 的 工作 量 ， 并 且 需 要 积累 很 多 经 验 。 本 文 将 参数 a 引入 
为 一 个 可 学 习 的 参数 , 在 训练 CNN 的 过 程 自 适应 地 更 新 , CNN 
的 每 一 个 卷 积 层 对 应 的 PoLU 层 可 以 学 习 到 本 层 最 适应 的 参数 
值 。 


表 2 参数 4 对 PoLU 的 影响 对 比 实验 (%) 
a 0.3 0.4 0.5 0.6 0.7 


Top-1 9. 68 9. 20 9.27 9.23 9. 56 


3.2.2 通道 共享 型 和 通道 独 享 型 非 线性 比较 

首先 , 在 C10 上 训练 一 个 带 有 ReLU 激活 函数 的 NIN 作为 
baseline， 训 练 好 的 网 络 top-1 错误 率 是 10. 10%。 接 着 ，NIN 
中 所 有 的 ReLU 激活 函数 被 蔡 换 成 PoLU 激活 函数 ， 从 头 开始 训 
练 这 个 网 络 ， 使 用 的 设置 与 将 ReLU 作为 激活 函数 的 NIN 一致 。 
NIN 中 的 PoLU 层 是 通道 独 享 型 ,其 中 参数 a 的 初始 化 设 为 0. 5。 
图 2 和 3 分别 这 两 个 网 络 的 训练 误差 和 测试 误差 。 为 了 更 清楚 
地 显示 测试 误差 的 收敛 趋势 ,图 4 展示 了 第 60 个 epoch 之 后 的 
测试 误差 曲线 。 
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从 图 中 可 以 看 出 ，PoLU 激活 函数 要 比 ReLU 激活 函数 好 
1.31%。 表 3 对 通道 独 享 型 PoLU 和 通道 共享 PoLU 进行 比较 。 可 
以 看 出 通道 独 享 型 PoLU 要 优 于 通道 共享 型 PoLU, 并 且 PoLU 要 


优 于 PReLU。 本文 剩 余 实 验 全 部 使 用 通道 独 享 型 PoLU 和 通道 独 
享 型 PReLU。 
表 3 NIN 使 用 ReLU,PReLU 和 PoLU 在 C10 中 的 对 比 
方法 Top-1 (%) 
ReLUUJ 复 现 10.10 
PReLUDI (通道 共享 型 ) 9.43 
PReLUB1 (通道 独 享 型 ) 9.31 
PoLU (通道 共享 型 ) 8.91 
PoLU (通道 独 享 型 ) 8.79 


3.2.3 与 其 他 非 线 性 激活 函数 比较 

本 文 比较 PoLU 和 其 他 四 种 激活 函数 ReLU、 LReLU、 ELU 
和 PReLU， 比 较 实 验 在 四 个 数据 库 进行 ， 分别 是 C10、C10+、 
C100 和 C100+。 对 于 ,每 一 个 数据 库 ， 当 从 头 开始 训练 一 个 新 
网 络 模型 时 , 只 更 改 激活 函数 而 保持 其 他 设置 不 变 。 使 用 ReLU 
作为 激活 函数 的 NIN 网 络 模型 在 C10 上 和 C100 上 的 复 现 top-1 


骆 训 浩 ， 等 : 


测试 误差 分 别 是 10.10% 和 33.02%， 这 两 个 复 现 实验 结果 都 好 
于 文献 [10] 报 道 的 结果 。 在 C10+ 上 复 现 的 ReLU 激活 函数 实验 
结果 是 8.83%， 与 文献 [10] 的 baseline 具有 可 比 性 。 

表 4 是 关于 对 比 实验 结果 的 总 结 。 在 所 有 激活 函数 中 PoLU 
表现 最 好 。 在 C10 上 ，PoLU 提升 了 ReLU 的 性 能 从 10.10% 到 
8.79%; 在 Cl10+ 上 ，PoLU 提升 了 ReLU 的 性 能 从 8.83% 到 
7.84%; 在 C100 上 ，PoLU 提升 了 ReLU 的 性 能 从 33.02% 到 
31.73%; 在 C100+ 上 ，PoLU 提升 了 ReLU 的 性 能 从 32.51% 到 
30.64%。 大 多 数 情况 下 ,LReLU,ELU 和 PReLU 表现 都 比 ReLU 
要 好 ,并且 PReLU 在 四 者 表现 最 好 。 相 比 PReLU, 本 文 的 PoLU 
分 别 在 C10、C10+、C100 和 C100+ 提 升 0.52%、0.13%、0.91% 


和 0.77%。 

表 4 ReLU,LReLU,ELU,PReLU 和 PoLU 的 对 比 实验 
法 C10 C10+ C100 = C100+ 
文献 [10]ReLU[1] 复 现 10.4110.10 8.818.83 35.6833.02 -32.51 
LReLU[2] 复 现 9.53 8.75 33.22 31.95 
ELU[3] 复 现 9.33 8.14 32.73 31.57 
PReLU[4] 复 现 9.31 7.91 32.64 31.41 
PoLU( 本 文 ) 8.79 7.78 31.73 30.64 


注 :实验 网 络 NIN, 所 用 数据 库 C10/C10+ 和 C100/C100+。 结 果 是 
top-1 测试 误差 (%) 
3.3 学 习 到 的 参数 分 析 

如 文献 [16] 所 示 ，CNN 中 更 深 的 层 会 抓 取 更 多 语义 信息 ， 
如 全 连接 层 和 最 后 一 个 卷 积 层 ， 然 而 浅 层 更 类 似 Gabor 滤波 器 
对 边缘 和 纹理 更 敏感 ， 如 第 一 个 卷 积 层 。 表 5 展示 了 NIN 中 每 


一 个 PoLU 层 学 习 到 的 参数 。 从 表 5 中 可 以 看 出 ， 越 深 的 
mlpconv 层 学 到 的 参数 值 越 小 。 这 表明 随 着 层 数 增加 ， 激 活 函 


数 的 非 线 性 越 大 。 相 比 深层 ， 浅 层 负 激活 部 分 包含 更 多 信息 ， 
因此 学 习 到 的 参数 值 也 越 大 。 
表 5 C10 上 NIN 使 用 通道 共享 PoLU 学 习 到 的 参数 
网 络 层 Convl Cecpl Cccp2 Conv2 Cecp3 Cccp4 Conv3 Cccp5 


参数 


0.421 0.454 0.451 0.258 0.262 0.327 0.209 0.237 


4 ARA 


本 文 提出 新 颖 的 参数 化 激活 函数 用 于 深度 CNNs， 称 为 至 
线性 单元 (power linear unit) 。 不 同 于 现存 的 激活 函数 ， 本 文 
的 PoLU 可 以 对 负 激 活 部 分 表现 出 各 层 不 同 的 非 线 性 变化 。 在 
CIFAR-10 和 CIFAR-100 的 实验 结果 表明 ，PoLU 可 以 在 NIN 
网 络 模型 上 提升 性 能 。 同 时 ， 本 文 展示 了 负 激 活 部 分 在 不 同 层 
有 着 不 同 的 作用 ， 对 于 PoLU 的 设计 和 分 析 有 助 于 更 好 的 理 角 
深度 CNNs。 
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